Resumen Resultados V2

En este notebook aplicamos los test estadísticos y el algoritmo decisión multicriterio a aquellos modelos que pensamos que sufren de menos overfitting.

Eliminando modelos que padecen overfitting

Cargamos los modelos

Función que predice el instante t tanto en train como en test para cada modelo y muestra las gráficas

De forma gráfica parece que los modelos que más overfitting hacen son Ranfom Forest y GBR (tanto para lag3 como para lag5). Ahora cogemos las medidas de error en la predicción t tanto para train como para test de todos los modelos. Aquellos que tengan una diferencia > 0.2 serán los que consideremos que están sobre ajustando los datos

Leemos las tablas de errores de RMSE y MAE tanto para train como para test

Calculamos las diferencias y aquellas que superen el valor de 0.2 serán los modelos que eliminaremos

Eliminamos los modelos que han hecho overfitting

Tests estadísticos

Partimos de las tablas a las que hemos eliminado los modelos que sobre ajustan los datos y aplicamos los test estadísticos

RMSE

Como ningún p-valor < 0.05, no podemos rechazar la hipótesis nula de que las distribuciones son normales. Aplicamos el test de Mauchly para comprobar la esfericidad

Como el p-valor > 0.05 aplicamos el test paramétrico de anova para ver si hay diferencias significativas entre los modelos. Nuestra hipotesis nula es H0: no existen diferencias significativas entre los modelos

El p-valor es 0.21 > 0.05 luego aceptamos la hipotesis nula, no existen diferencias significativas

No detecta diferencias significativas

MAE

En este caso los p-valores son todos mayores que el valor de significancia luego no podemos rechazar la hipotesis de que se siga una distribucion normal

De nuevo no podemos rechazar la hipotesis nula

En este caso el p-valor si es menor que 0.05 luego rechazamos la hipotesis nula H0: no existen diferencias significativas. Aplicamos el test de Tukey para ver donde estan las diferencias

Detecta diferencias en EN_Lag5 VS SVR_Lag3

CC

De nuevo no podemos aceptar que los datos siguen una normal, aplicamos esferididad

En este caso no podemos rechazar la hipotesis nula: no existen diferencias significativas entre los modelos

No detecta diferencias significativas

Generamos la tabla completa y ordenamos